域适应嵌入模型,更新通用嵌入到特定域的语言,是一个经过验证的域,其数据不足以从头划伤训练有效模型。化学出版物是一个这样的领域,提供科学的术语和超载术语,抑制了一般语言模型的性能。最近在Arxiv提出的球形嵌入模型(JOSE):1911.01196在多维单位领域的训练期间共同学习Word和Document Embeddings,这对文档分类和单词相关任务进行了良好。但是,我们展示了在训练期间通过全局旋转引起的非收敛性阻止它免受域改编。在这项工作中,我们开发了对嵌入空间的全局旋转进行反击的方法,并在域特定培训期间提出更新单词和文档的策略。两个新的文档分类数据集会从一般和化学科学期刊中融合,以比较建议的更新培训策略与基准模型。我们表明我们的策略能够将域适应的性能成本降低到类似于Word2VEC的级别。
translated by 谷歌翻译